Fine-grained classification and counting of bone marrow erythroid cells are vital for evaluating the health status and formulating therapeutic schedules for leukemia or hematopathy. Due to the subtle visual differences between different types of erythroid cells, it is challenging to apply existing image-based deep learning models for fine-grained erythroid cell classification. Moreover, there is no large open-source datasets on erythroid cells to support the model training. In this paper, we introduce BMEC (Bone Morrow Erythroid Cells), the first large fine-grained image dataset of erythroid cells, to facilitate more deep learning research on erythroid cells. BMEC contains 5,666 images of individual erythroid cells, each of which is extracted from the bone marrow erythroid cell smears and professionally annotated to one of the four types of erythroid cells. To distinguish the erythroid cells, one key indicator is the cell shape which is closely related to the cell growth and maturation. Therefore, we design a novel shape-aware image classification network for fine-grained erythroid cell classification. The shape feature is extracted from the shape mask image and aggregated to the raw image feature with a shape attention module. With the shape-attended image feature, our network achieved superior classification performance (81.12\% top-1 accuracy) on the BMEC dataset comparing to the baseline methods. Ablation studies also demonstrate the effectiveness of incorporating the shape information for the fine-grained cell classification. To further verify the generalizability of our method, we tested our network on two additional public white blood cells (WBC) datasets and the results show our shape-aware method can generally outperform recent state-of-the-art works on classifying the WBC. The code and BMEC dataset can be found on https://github.com/wangye8899/BMEC.
translated by 谷歌翻译
来自LIDAR或相机传感器的3D对象检测任务对于自动驾驶至关重要。先锋尝试多模式融合的尝试补充了稀疏的激光雷达点云,其中包括图像的丰富语义纹理信息,以额外的网络设计和开销为代价。在这项工作中,我们提出了一个名为SPNET的新型语义传递框架,以通过丰富的上下文绘画的指导来提高现有基于激光雷达的3D检测模型的性能,在推理过程中没有额外的计算成本。我们的关键设计是首先通过训练语义绘制的教师模型来利用地面真实标签中潜在的指导性语义知识,然后引导纯LIDAR网络通过不同的粒度传播模块来学习语义绘制的表示:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类:类别:类别:类别:类别:类别:类别:类别: - 通过,像素的传递和实例传递。实验结果表明,所提出的SPNET可以与大多数现有的3D检测框架无缝合作,其中AP增益为1〜5%,甚至在KITTI测试基准上实现了新的最新3D检测性能。代码可在以下网址获得:https://github.com/jb892/sp​​net。
translated by 谷歌翻译
近年来,基于深度学习的平行成像(PI)取得了巨大进展,以加速磁共振成像(MRI)。然而,现有方法的性能和鲁棒性仍然可以是不受欢迎的。在这项工作中,我们建议通过柔性PI重建,创建的重量K-Space Genera-Tive模型(WKGM)来探索K空间域学习。具体而言,WKGM是一种通用的K空间域模型,在其中有效地纳入了K空间加权技术和高维空间增强设计,用于基于得分的Genererative模型训练,从而实现良好和强大的重建。此外,WKGM具有灵活性,因此可以与各种传统的K空间PI模型协同结合,从而产生基于学习的先验以产生高保真重建。在具有不同采样模式和交流电因子的数据集上进行实验性重新构建表明,WKGM可以通过先验良好的K-Space生成剂获得最新的重建结果。
translated by 谷歌翻译
鸟眼视图(BEV)语义分割对于具有强大的空间表示能力的自动驾驶至关重要。由于空间间隙而从单眼图像中估算BEV语义图是一项挑战,因为这是隐含的,以实现均可实现透视到bev-bev的转换和分割。我们提出了一个新型的两阶段几何形状的基于GITNET的基于基于的转换框架,由(i)几何引导的预先对准和(ii)基于射线的变压器组成。在第一阶段,我们将BEV分割分解为透视图的图像分割和基于几何的基于几何映射,并通过将BEV语义标签投影到图像平面上,以明确的监督,以学习可见性吸引的特征和可学习的几何形状,以转化为BEV空间。其次,基于射线的变压器将预先一致的粗细BEV特征进一步变形,以考虑可见性知识。 Gitnet在具有挑战性的Nuscenes和Argoverse数据集上实现了领先的表现。
translated by 谷歌翻译
3D场景由大量背景点主导,这对于主要需要集中在前景对象的检测任务是多余的。在本文中,我们分析了现有的稀疏3D CNN的主要组成部分,发现3D CNN忽略了数据的冗余,并在下降过程中进一步扩大了数据,这带来了大量的多余和不必要的计算间开销。受到这一点的启发,我们提出了一个名为“空间修剪稀疏卷积”(SPS-CONV)的新型卷积操作员,其中包括两个变体,空间修剪的Submanifold稀疏卷积(SPSS-CONV)和空间修剪的常规稀疏卷积(SPRS-CONV),包括这是基于动态确定冗余降低关键领域的想法。我们验证该幅度可以作为确定摆脱基于学习方法的额外计算的关键领域的重要提示。提出的模块可以轻松地将其纳入现有的稀疏3D CNN中,而无需额外的架构修改。关于Kitti,Waymo和Nuscenes数据集的广泛实验表明,我们的方法可以在不损害性能的情况下实现超过50%的GFLOPS。
translated by 谷歌翻译
人的大脑可以毫不费力地识别和定位对象,而基于激光雷达点云的当前3D对象检测方法仍然报告了较低的性能,以检测闭塞和远处的对象:点云的外观由于遮挡而变化很大,并且在沿线的固有差异沿点固有差异变化。传感器的距离。因此,设计功能表示对此类点云至关重要。受到人类联想识别的启发,我们提出了一个新颖的3D检测框架,该框架通过域的适应来使对象完整特征。我们弥合感知域之间的差距,其中特征是从具有亚最佳表示的真实场景中得出的,以及概念域,其中功能是从由不批准对象组成的增强场景中提取的,并具有丰富的详细信息。研究了一种可行的方法,可以在没有外部数据集的情况下构建概念场景。我们进一步介绍了一个基于注意力的重新加权模块,该模块可适应地增强更翔实区域的特征。该网络的功能增强能力将被利用,而无需在推理过程中引入额外的成本,这是各种3D检测框架中的插件。我们以准确性和速度都在Kitti 3D检测基准上实现了新的最先进性能。关于Nuscenes和Waymo数据集的实验也验证了我们方法的多功能性。
translated by 谷歌翻译
在许多现实世界应用中,例如市场和医学,基于短期替代物的长期因果影响是一个重大但具有挑战性的问题。尽管在某些领域取得了成功,但大多数现有方法以理想主义和简单的方式估算了因果影响 - 忽略了短期结果之间的因果结构,而将所有这些因果关系视为代孕。但是,这种方法不能很好地应用于现实世界中,其中部分观察到的替代物与短期结局中的代理混合在一起。为此,我们开发了灵活的方法激光器,以估计在更现实的情况下观察或观察到代理的更现实的情况。 (ivae)在所有候选者上恢复所有有效的替代物,而无需区分观察到的替代物或潜在代理人的代理。在回收的替代物的帮助下,我们进一步设计了对长期因果影响的公正估计。关于现实世界和半合成数据集的广泛实验结果证明了我们提出的方法的有效性。
translated by 谷歌翻译
以有限的注释成本收集的嘈杂标签可阻止医疗图像分割算法学习精确的语义相关性。先前使用嘈杂标签的学习的细分艺术仅执行以像素的方式来保留语义,例如像素标签校正,但忽略了配对的方式。实际上,我们观察到,捕获像素之间亲和力关系的成对方式可以大大降低标签噪声率。在这一观察结果的推动下,我们通过纳入像素和配对的方式来介绍了缓解嘈杂的新观点,分别从嘈杂的阶级和亲和力标签中得出了监督。统一像素和配对的举止,我们提出了一个强大的联合类亲和力分割(JCAS)框架,以解决医疗图像分割中的标签噪声问题。考虑到成对方式的亲和力结合了上下文依赖性,通过推理有关类内部和类的亲和力关系来设计区分的亲和力推理(DAR)模块来纠正像素段预测。为了进一步增强噪声阻力,旨在通过类和亲和力标签中建模的噪声标签分布来纠正监督信号的类亲和力损失校正(计算)策略。同时,CALC策略通过理论得出的一致性正则化来互动像素和成对的方式。合成和现实世界噪声标签下的广泛实验证实了所提出的JCAS框架的功效,并且对上限性能的最小间隙。源代码可在\ url {https://github.com/cityu-aim-group/jcas}中获得。
translated by 谷歌翻译
最近,神经辐射场(NERF)正在彻底改变新型视图合成(NVS)的卓越性能。但是,NERF及其变体通常需要进行冗长的每场训练程序,其中将多层感知器(MLP)拟合到捕获的图像中。为了解决挑战,已经提出了体素网格表示,以显着加快训练的速度。但是,这些现有方法只能处理静态场景。如何开发有效,准确的动态视图合成方法仍然是一个开放的问题。将静态场景的方法扩展到动态场景并不简单,因为场景几何形状和外观随时间变化。在本文中,基于素素网格优化的最新进展,我们提出了一种快速变形的辐射场方法来处理动态场景。我们的方法由两个模块组成。第一个模块采用变形网格来存储3D动态功能,以及使用插值功能将观测空间中的3D点映射到规范空间的变形的轻巧MLP。第二个模块包含密度和颜色网格,以建模场景的几何形状和密度。明确对阻塞进行了建模,以进一步提高渲染质量。实验结果表明,我们的方法仅使用20分钟的训练就可以实现与D-NERF相当的性能,该训练比D-NERF快70倍以上,这清楚地证明了我们提出的方法的效率。
translated by 谷歌翻译
现有的研究表明,对抗性示例可以直接归因于具有高度预测性的非稳态特征的存在,但很容易被对手对愚弄NLP模型进行操纵。在这项研究中,我们探讨了捕获特定于任务的鲁棒特征的可行性,同时使用信息瓶颈理论消除了非舒适的特征。通过广泛的实验,我们表明,通过我们的信息基于瓶颈的方法训练的模型能够在稳健的精度上取得显着提高,超过了所有先前报道的防御方法的性能,而在SST-2上几乎没有遭受清洁准确性的表现下降,Agnews和IMDB数据集。
translated by 谷歌翻译